Cuadro
de mandos
Enlace al
repositorio en GitHub
| ODS | No procede | Bajo | Medio | Alto |
|---|---|---|---|---|
| 1 Fin de la Pobreza | X | |||
| 2 Hambre cero | X | |||
| 3 Salud y Bienestar | X | |||
| 4 Educación de calidad | X | |||
| 5 Igualdad de género | X | |||
| 6 Agua limpia y saneamiento | X | |||
| 7 Energía Asequible y no contaminante | X | |||
| 8 Trabajo decente y crecimiento económico | X | |||
| 9 Industria, Innovación e Infraestructuras | X | |||
| 10 Reducción de las desigualdades | X | |||
| 11 Ciudades y comunidades sostenibles | X | |||
| 12 Producción y consumo sostenibles | X | |||
| 13 Acción por el clima | X | |||
| 14 Vida submarina | X | |||
| 15 Vida de ecosistemas terrestres | X | |||
| 16 Paz, justicia e instituciones sólidas | X | |||
| 17 Alianzas para lograr objetivos | X |
Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:
Diagrama metodología de desarrollo CRISP-DM
Comprensión del negocio. Se plantean los objetivos del proyecto y la búsqueda de información y datos.
Para la búsqueda del dataset elegido finalmente para la realización
de este proyecto, hemos llevado a cabo una serie de pasos.
En primer lugar, a través del documento facilitado por el profesor,
exploré y contrasté los posibles datasets que aparecían en la tabla
dinámica que ofrecía aquellos datasets que cumplían los requisitos
relacionados con la temporalidad de las observaciones. Tras consultar
con chatgpt, centré mi busqueda en aquellos datasets que tenían un
máximo de ≈1 mill. y mínimo 10 mil observaciones. Aquellos datasets que
tenían un título que me llamara la atención, se los pasaba al chatgpt
para que me diera una breve descripción del mismo. Cuando ya había
seleccionado los suficientes, le pedí que hiciera un top con aquellos
que considerara más adecuados para el proyecto a realizar, según el
temario que se impartiría en la asignatura y que está registrado en el
libro de la asignatura que previamente le pasé a este chatbot.
Tras haber escrito un dataset previamente en la wiki para registrarlo,
sin haber prestado mucha atención a todo las condiciones que este debía
cumplir, terminé eligiendo uno que cumplía todos los requisitos
expuestos en el documento proporcionado por el profesor. Una vez
verificado esto, pasé al siguiente paso de comprensión de los datos
elegidos.
Comprensión de los datos. Se analiza la estructura y organización de los datos obtenidos. Se identifican posible problemas como datos faltantes, outliers o inconsistencias.
Los datos de nuestro dataset están organizados de forma tidy. Los variables categóricas que existen, su significado, y sus valores posibles son:
freq: Frecuencia con la que se toman las observaciones. Tiene un único valor “A”, que corresponde a datos anuales.
nace_r2: Rama de actividad económica. Se divide
según la clasificación NACE Rev. 2. Los códigos pueden corresponder
a una sección concreta (ej. A, C, F), a un rango de secciones
consecutivas indicado con guion (ej. B-E, G-I), o a agrupaciones
específicas de varias secciones señaladas con guion bajo (ej.
M_N).
Valores posibles:
na_item: Tipo de indicador económico relacionado con los costes laborales y las horas trabajadas.
unit: Unidad de medida de los valores registrados para cada indicador.
geo: Regiones para las que existen observaciones.
TIME_PERIOD: Fechas de las observaciones. Comprende datos desde 1995 hasta 2023, con observaciones anuales. La cantidad de registros por año varía, siendo especialmente elevada entre 2000 y 2021, destacando los años 2016 y 2020 como los que concentran más observaciones. Cabe destacar que en 2023 el número de registros disminuye significativamente respecto a años anteriores.
Preparación de los datos. Se realiza limpieza, transformación, combinación y selección/creación de variables relevantes para el análisis
Modelado. Selección y aplicación de los modelos adecuados para analizar los datos
Evaluación. Evaluar si el modelo responde a las preguntas de investigación, comparación con otros métodos
Despliegue. Comunicación del trabajo en una memoria y diseño y elaboración de un cuadro de mandos para presentar los resultados de forma eficaz y atractiva.
Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.
A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.
TOTAL HORAS TRABAJADAS EN EL PROYECTO : -1.1025919^{6}
DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO